知识库,例如Wikidata Amass大量命名实体信息,例如多语言标签,这些信息对于各种多语言和跨语义应用程序非常有用。但是,从信息一致性的角度来看,不能保证这样的标签可以跨语言匹配,从而极大地损害了它们对机器翻译等字段的有用性。在这项工作中,我们研究了单词和句子对准技术的应用,再加上匹配算法,以将从Wikidata提取的10种语言中提取的跨语性实体标签对齐。我们的结果表明,Wikidata的主标签之间的映射将通过任何使用的方法都大大提高(F1分数最高20美元)。我们展示了依赖句子嵌入的方法如何超过所有其他脚本,甚至在不同的脚本上。我们认为,这种技术在测量标签对的相似性上的应用,再加上富含高质量实体标签的知识库,是机器翻译的绝佳资产。
translated by 谷歌翻译